查看原文
其他

RNA芯片和测序技术的比较(学徒作业)

生信技能树 生信技能树 2022-06-07

前面我们介绍了表达量研究领域的,基因芯片和RNA-seq测序技术,并且把详细的学习资料和视频教程免费共享在了B站。

有学员提出来了一个问题,就是可以比较同样实验设计的表达量探索研究,一个研究使用的是芯片,一个是测序,看看两者的差异基因情况的overlap情况。其实这样的例子非常多,比如下面这样的展现方式:

下面给大家几个数据集,作为任务,大家去探索它们,并且绘制如上所示的图表!


NPC癌症组织与正常组织的RNA-seq


数据集是  https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE118719

7 NPC biopsy specimens and 4 normal nasopharyngeal mucosal specimens were sampled. Total RNA were extracted from these samples, and analyzed by RNA-sequencing.

作者提供了RNA-seq的表达矩阵:https://ftp.ncbi.nlm.nih.gov/geo/series/GSE118nnn/GSE118719/suppl/GSE118719_mrna.expression.tsv.gz ,不过这个数据集本来就提供原始测序数据下载,也可以很方便的自己走一波数据分析流程拿到自己的表达矩阵。如果你也想走RNA-seq数据分析流程却不知的从何下手,不妨考虑:生信爆款入门-全球听(买一得五)(第5期)(可能是最后一期)你的生物信息学入门课。

NPC癌症组织与正常组织的HG-U133_Plus_2芯片


在GEO数据库可以搜索到NPC相关表达矩阵:

  • 文章是:Upregulated long non-coding RNA AFAP1-AS1 expression is associated with progression and poor prognosis of nasopharyngeal carcinoma. Oncotarget 2015 Aug 21;6(24):20404-18. PMID: 26246469

  • 使用的是[HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array

  • 数据集是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE64634

  • 实验设计是:Total RNA extracted from laser-captured epithelium from 12 nasopharyngeal carcinomas and 4 normal healthy nasopharyngeal tissue specimens.

GSM1575894    normal nasopharyngeal tissue, specimen N1
GSM1575895    normal nasopharyngeal tissue, specimen N2
GSM1575896    normal nasopharyngeal tissue, specimen N3
GSM1575897    normal nasopharyngeal tissue, specimen N4
GSM1575898    nasopharyngeal carcinoma, specimen T1
GSM1575899    nasopharyngeal carcinoma, specimen T2
GSM1575900    nasopharyngeal carcinoma, specimen T3
GSM1575901    nasopharyngeal carcinoma, specimen T4
GSM1575902    nasopharyngeal carcinoma, specimen T5
GSM1575903    nasopharyngeal carcinoma, specimen T6
GSM1575904    nasopharyngeal carcinoma, specimen T7
GSM1575905    nasopharyngeal carcinoma, specimen T8
GSM1575906    nasopharyngeal carcinoma, specimen T9
GSM1575907    nasopharyngeal carcinoma, specimen T10
GSM1575908    nasopharyngeal carcinoma, specimen T11
GSM1575909    nasopharyngeal carcinoma, specimen T12

芯片数据处理就很容易啦,如果你还有疑问,不妨看看:(必看!)数据挖掘第3期(两天变三周,实力加量),医学生/临床医师首选技能提高课。

NPC癌症组织与正常组织的lncRNA芯片


首先是Sep 30, 2019的  Long non-coding RNAs and mRNAs expression profilling in human nasopharyngeal carcinoma ,数据集是:GSE126683 使用的是Agilent-045997 Arraystar human lncRNA microarray V3 (Probe Name Version)芯片平台

GSM3611201    1_GX5: Normal
GSM3611202    2_GX6: Normal
GSM3611203    3_GX8: Normal
GSM3611204    4_662: NPC
GSM3611205    5_667: NPC
GSM3611206    6_751: NPC

文章的差异分析结果是:

We performed genome-wide lncRNAs expression in 3 pairs of NPC and normal nasopharynx tissues and identified 384 dysregulated lncRNAs (fold change ≥2 and P <0.05).

所以作者就从差异分析结果里面挑选了 FAM225A ,依据的标准是;

  • FAM225A was one of the most upregulated lncRNAs in NPC.

  • FAM225A significantly associated with poor survival in NPC.


NPC的lncRNA芯片之癌症比癌旁


这个研究使用的是:Arraystar Human LncRNA microarray V2.0 (Agilent_033010 Probe Name version) 数据集是:GSE95166  

GSM2498136    T_1
GSM2498137    T_2
GSM2498138    T_3
GSM2498139    T_4
GSM2498140    I_1
GSM2498141    I_2
GSM2498142    I_3
GSM2498143    I_4

跟前面的数据集是:GSE126683 实验设计是一模一样,所以两个结果可以对比分析!

NPC的lncRNA芯片之转移与否


发表在Biomed Res Int. 2015;的Long Noncoding RNA Expression Signatures of Metastatic Nasopharyngeal Carcinoma and Their Prognostic Value. 因为发表的较早,所以使用的是 Human lncRNA Array v2.0 (8 × 60 K, Arraystar). 统计学结果是:8,088 lncRNAs were found to be significantly differentially expressed (≥2-fold) 这篇文章并没有把其表达矩阵上传到GEO数据框,而是以附件Excel表格形式给出了,所以也可以重新分析看看。

其他NPC表达数据集


数据集:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE40290

实验设计是;We collected 25 primary NK-NPCs and 8 nasopharynx tissues obtained from patients with inflamed nasopharyngeal mucosa. mRNA expression profiling was performed followed by bioinformatics analysis.

这个芯片平台有点奇怪:GPL8380Capitalbio 22K Human oligo array version 1.0

这个数据集还被挖掘过,NPC (GSE40290), 573 genes and 3,711 genes (green) were differentially expressed in high-TRIM26 NPC  and low-TRIM26 NPC ,文章是:published: 28 June 2018 https://doi.org/10.1002/cam4.1537


基本上都只需要走标准分析流程,火山图,热图,GO/KEGG数据库注释等等。这些流程的视频教程都在B站和GitHub了,目录如下:

  • 第一讲:GEO,表达芯片与R

  • 第二讲:从GEO下载数据得到表达量矩阵

  • 第三讲:对表达量矩阵用GSEA软件做分析

  • 第四讲:根据分组信息做差异分析

  • 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析

  • 第六讲:指定基因分组boxplot指定基因list画热图

感兴趣可以细读表达芯片的公共数据库挖掘系列推文 ;

文末友情宣传

强烈建议你推荐我们生信技能树给身边的博士后以及年轻生物学PI,帮助他们多一点数据认知,让科研更上一个台阶:推荐阅读





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存